Classify train data & test data

wine sample data set
import pandas as pd
df_wine=pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases/wine/wine.data',
header=None)
df_wine.columns=['Class label', 'Alchol' ,'Malic acid', 'Ash', 'Alcalinity of ash',
'Magnesium', 'Total phenols', 'Flavanoids', 'Noneflavanoid phenols', 'Proanthocyanins',
'Color intensity', 'Hue', '0D280/0D315 of diluted wines', 'Proline']
scikit-learn의 model_selection 모듈에 있는 train_test_split 함수를 이용한 데이터 분류
from sklearn.model_selection import train_test_split
X, y=df_wine.iloc[:,1:].values, df_wine.iloc[:,0].values
X_train, X_test, y_train, y_test=\
train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)
test_size=0.3 으로 지정하면 와인샘플의 30%가 X_test와 y_test로 할당된다.
stratify 매개변수를 전달하면, 훈련 데이터셋과 테스트 데이터셋에 있는 클래스 비율이 원본 데이터셋과
동일하게 유지된다.